Residencia de Epidemiología
En el mundo informático existen numerosos formatos de archivos de tablas / base de datos.
El lenguaje R permite importar y exportar de una amplia variedad de formatos a partir de utilizar diferentes paquetes. Muchos de ellos pertenecientes al ecosistema tidyverse.
Hoy nos vamos a centrar en dos formatos básicos habituales donde tenemos almacenada comúnmente la información:
Además mencionaremos otros formatos posibles y el propio de R
El paquete readr se instala y activa cuando ejecutamos library(tidyverse).
Contiene una familia de funciones que permiten leer y escribir archivos de texto plano separados como coma o algún otro caracter (tabulación, punto y coma, etc)
Sus funciones de lectura comienzan todas con read_
Sus funciones de escritura comienzan con write_
La primera función de lectura que vamos a ver es read_delim()
El estructura de esta función sirve de base para las demás.
Sus principales argumentos son:
file: nombre del archivo
delim: caracter separador de columna
col_names: Valor lógico. Si es TRUE lee la primera fila como nombres de las variables. Si es FALSE no lo hace.
skip: número de líneas que saltea para comenzar a leer.
Para archivos separados por comas en formato regional Estadounidense se utiliza la función read_csv().
Tiene la misma base de read_delim() con valor predeterminado en en el argumento:
Para archivos separados por comas en formato regional Español/Argentino se utiliza la función read_csv2().
Tiene la misma base de read_delim() con valor predeterminado en en el argumento:
El paquete readxl se instala con tidyverse pero hay que activarlo aparte mediante library(readxl).
Contiene funciones que permiten leer archivos de Microsoft Excel tan extendidos en nuestras oficinas.
La función comodín para leer, tanto formatos .xls como .xlsx, es read_excel()
La estructura de los argumentos de la función read_excel() es:
path: nombre del archivo
sheet: hoja del libro del archivo Excel
range: rango de celdas (opcional)
col_names: Valor lógico. Si es TRUE lee la primera fila como nombres de las variables. Si es FALSE no lo hace.
skip: número de líneas que saltea para comenzar a leer.
save()
load()
RData

.font150[Capítulo 11 del libro “R para Ciencias de Datos”]
Instituto Nacional de Epidemiología